هوش مصنوعی

سرمایه‌گذاری ۴۱ میلیون دلاری میرلُو برای رفع چالش صدا در ویدئوهای هوش مصنوعی

هوش مصنوعی به هر کسی امکان ساخت ویدئو را می‌دهد، اما بسیاری از ابزارهای ساخت ویدئوی مبتنی بر هوش مصنوعی از پشتیبانی صوت برخوردار نیستند. Mirelo در حال توسعه هوش مصنوعی است که برای تطبیق دادن صدا با اقدامات داخل ویدئو، موسیقی و افکت‌های صوتی تولید می‌کند.

اوایل امسال، استارتاپ Mirelo مستقر در برلین نسخه اول مدل هوش مصنوعی خود با نام Mirelo SFX v1.5 را منتشر کرد که قادر است ویدئو را تفسیر کرده و افکت‌های صوتی (SFX) هماهنگ با تصویر ایجاد کند.

این دستاورد توجه سرمایه‌گذاران خطرپذیر مشتاق به انقلاب هوش مصنوعی مولد در بازی‌سازی را جلب کرد. این استارتاپ آلمانی که حدود دو سال فعالیت دارد، موفق شده در دور ابتدایی جذب سرمایه، ۴۱ میلیون دلار از صندوق‌های سرمایه‌گذاری Index Ventures و Andreessen Horowitz دریافت کند که خبرنگار به طور اختصاصی از آن مطلع شده است.

این سرمایه جدید کمک خواهد کرد تا Mirelo بتواند در حوزه رو به رشد خود رقابتی‌تر ظاهر شود. در دورانی که هنوز در حالت مخفی و با محدودیت منابع قرار داشت، شرکت‌های بزرگی چون سونی و تنسنت مدل‌های ویدئو به افکت صوتی را عرضه کردند. همینطور Kling AI که متعلق به Kuaishou در چین است و ElevenLabs نیز مدل‌هایی عرضه کردند که هر دو مورد حمایت a16z هستند.

اگرچه Mirelo تمرکز محدودتری نسبت به این شرکت‌ها دارد، اما برای موفقیت بلندمدت نیاز دارد تیم خود را گسترش دهد. CJ Simon-Gabriel مدیرعامل و یکی از بنیانگذاران Mirelo به منبع گفت که انتظار می‌رود تعداد اعضای تیم این استارتاپ تا پایان سال آینده میلادی از ۱۰ نفر فعلی حداقل دو یا حتی سه برابر شود.

افراد جدید قرار است در زمینه تحقیق و توسعه، توسعه محصول و استراتژی ورود به بازار به Mirelo کمک کنند. این استارتاپ مدل‌های خود را در Fal.ai و Replicate ارائه داده و به گفته Simon-Gabriel، پیش‌بینی می‌شود استفاده از API بخش عمده‌ای از درآمد کوتاه‌مدت شرکت را تأمین کند. با این حال، سرمایه‌گذاری قابل توجهی نیز برای توسعه فضای کاری مخصوص تولیدکنندگان محتوا با نام Mirelo Studio انجام داده‌اند که ممکن است در آینده برای حرفه‌ای‌ها نیز مناسب شود.

همزمان با برنامه‌ریزی برای رشد، Mirelo و سرمایه‌گذاران آن نیز به دغدغه‌هایی درباره داده‌های آموزشی که شرکت‌های دیگر حوزه هوش مصنوعی مولد با آن مواجه بوده‌اند، فکر می‌کنند. به گفته Georgia Stevenson که هدایت سرمایه‌گذاری Index را برعهده داشته، مدل‌های Mirelo براساس مجموعه‌های صوتی عمومی و خریداری‌شده ساخته شده و با هنرمندان توافق‌های همکاری در درآمد دارد تا حقوق آن‌ها رعایت شود.

این یک چالش ذاتی ابزارهای هوش مصنوعی مولد است، اما تا این لحظه Mirelo جایگزین موزیسین‌ها و طراحان صدا نشده است. با ارائه مدل فریمیوم که پلن پیشنهادی آن برای تولیدکنندگان محتوا با قیمت ۲۰ یورو در ماه (حدود ۲۳.۵ دلار) عرضه می‌شود، Mirelo عمدتاً بازار هدف خود را افراد آماتور و نیمه‌حرفه‌ای قرار داده که می‌خواهند ویدئوهای تولیدشده توسط هوش مصنوعی را از حالت بی‌صدا خارج کنند.

به گفته Simon-Gabriel، بدون صدا تولیدکنندگان محتوا نمی‌توانند از پتانسیل واقعی ویدئوهای هوش مصنوعی بهره‌مند شوند.

او می‌گوید: «جرج لوکاس گفته است که صدا پنجاه درصد از تجربه فیلم دیدن را تشکیل می‌دهد. این حرفی اغراق‌آمیز نیست؛ اگر چیزی اغراق‌آمیز باشد این است که کم گفته شده. شما می‌توانید دقیقاً همان تصاویر را قرار دهید و بسته به نوع صدا و موسیقی‌ای که بر آن می‌گذارید، حال و هوای کاملاً متفاوتی را شکل می‌دهید.»

او و شریکش، Florian Wenzel، هر دو پژوهشگر هوش مصنوعی و همچنین موزیسین هستند و افزودن تولید موسیقی با هوش مصنوعی نیز در نقشه راه Mirelo قرار دارد. با این وجود به گفته Simon-Gabriel، تقاضا برای افکت‌های صوتی بیشتر است، چون در این حوزه نسبت به دیگر حوزه‌های هوش مصنوعی تحقیقات کمتری انجام شده است.

او می‌گوید: «اینجا راحت‌تر می‌توان یک مزیت رقابتی واقعی ایجاد کرد و سپس از آن بهره برد.»

این موضوع می‌تواند برای Mirelo سودآور باشد. Simon-Gabriel از اعلام ارزشگذاری جدید شرکت خودداری کرد، اما گفت که این رقم نسبت به دور پیش‌بذری که اطلاع‌رسانی نشده بود، «خیلی چشمگیر» افزایش داشته است. در دوره پیشین هم شرکتAtlantic مستقر در برلین پیشگام سرمایه‌گذاری بود و در این دوره جدید نیز شرکت داشته تا مجموع سرمایه جذب شده Mirelo به ۴۴ میلیون دلار برسد و شکاف منابع آن کاهش یابد.

علاوه بر این، استارتاپ توسط فرشته‌های سرمایه‌گذاری معتبری پشتیبانی می‌شود که می‌توانند اعتبار بیشتری برای فناوری آن ایجاد کنند و راه‌های جدیدی را باز کنند؛ از جمله Arthur Mensch مدیرعامل Mistral ، Thomas Wolf مدیر ارشد علمی Hugging Face ، Burkay Gur یکی از بنیانگذاران Fal.ai و افراد دیگر.

با این حال، تیم Mirelo آگاه است که ویدئوهای تولیدشده با هوش مصنوعی ممکن است به زودی بی‌صدا باقی نمانند.

برای مثال، تولیدکننده ویدئوی Gemini اکنون برای افزودن موسیقی به ویدئوها از مدل تبدیل ویدئو به صدا Veo 3.1 متعلق به DeepMind استفاده می‌کند. اما Simon-Gabriel در نهایت این موضوع را تأییدی بر راه Mirelo می‌داند: «حالا ناگهان مردم متوجه می‌شوند که ‘آه، شاید باید صدا هم اضافه کنیم’. اما روشن است که باید این کار را بکنید. این شبیه دوران فیلم‌های صامت در مقابل فیلم‌های صوتی است، تفاوت بزرگی ایجاد می‌کند!»

علیرضا

علیرضام، یه عشق تکنولوژی که همیشه دنبال خبرای جدید و داغ دنیای دیجیتال می‌گرده

مقالات مرتبط

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

دکمه بازگشت به بالا